如何让大模型更聪明？《2024年人工智能指数报告》- 2.12 LLM改进技术

renee创业狗 Renee 创业随笔

2024-10-09

报告的2.12章节讲述了如何通过prompt、fine-tuning、Attention等技术来提高模型性能。

1. Prompting

Prompting是AI处理流程中的一个关键环节，它涉及向模型提供描述其应执行任务的自然语言指令。掌握编写有效prompt的艺术，可以显著提高LLM的性能，而无需对模型进行底层改进。

我之前也分享过很多与prompt相关的内容（ChatGPT prompt 书写指南 🧭），不过报告中包含了一些我之前未曾学习的新信息，今天我将补充学习一下。

1.1 Graph of Thoughts Prompting

“思维链”（CoT）（这个之前的文章如何让LLM更聪明也分享过CoT）和“思维树”（ToT）是可以提高LLM在推理任务上表现的prompting方法。2023年，欧洲研究人员引入了另一种称为“思维图”（GoT）的prompting方法，这种方法也显示出了潜力。GoT使LLM能够以更灵活、类图结构的方式模拟其思维，这更接近人类的实际推理过程。

研究人员随后设计了一个模型架构来实施GoT，并发现与ToT相比，它在一个排序任务上的输出质量提高了62%，同时降低了约31%的成本。

1.2 Optimization by PROmpting (OPRO)

DeepMind发表的一篇论文介绍了“通过Prompt进行优化”（OPRO），这是一种利用LLM迭代生成prompt以改善算法性能的方法。OPRO通过自然语言引导LLM基于问题描述和先前的解决方案创造新的prompt。

例如：
第二步：“让我们仔细考虑问题并共同解决它。”，训练准确率为63.2；
第四步：“让我们分解它！”，训练准确率为71.3；
第五步：“让我们计算出解决方案！”，训练准确率为73.9；
第六步：“让我们来做数学题！”，训练准确率为78.2。

这些生成的prompt旨在提高AI系统在特定基准上的性能。与其他如“一步步来思考”或空白起点的prompting方法相比，OPRO在几乎所有23个BIG-bench Hard任务上显著提高了准确性。

2. Fine-Tuning

Fine-tuning作为增强LLM性能的方法越来越受欢迎，涉及在较小的数据集上进一步训练或调整模型。Fine-tuning不仅提升了模型的整体性能，还增强了模型在特定任务上的能力，并允许对模型行为进行更精确的控制。

之前也介绍过OpenAI的fine-tuning API（GPT-3.5 Turbo fine-tuning （微调功能）发布啦～），今天看一下QLoRA：

2.1 QLoRA

QLoRA，由华盛顿大学的研究人员在2023年开发的新方法，旨在提高模型fine-tuning的效率。它显著减少了内存使用量，使得在单个48GB GPU上fine-tuning一个650亿参数的模型成为可能，同时保持完整的16位fine-tuning性能。为了对比，fine-tuning一个同等规模的领先开源LLM，如65B Llama模型，通常需要约780GB的GPU内存。因此，QLoRA的效率几乎提高了16倍。

QLoRA通过诸如4位NormalFloat（NF4）、双重量化和页面优化器等技术，显著提高了效率。QLoRA用于训练名为Guanaco的模型，该模型在Vicuna基准测试（一种评估LLM输出的基准）中的表现匹配甚至超过了如ChatGPT等模型。

值得注意的是，Guanaco模型仅在单个GPU上进行了24小时的fine-tuning就创建成功。QLoRA突显了优化和进一步改进模型的方法变得更加高效，意味着制造更有能力的模型将需要更少的资源。

3. 注意力机制

虽然LLMs能够灵活处理各种任务，但它们通常需要大量的计算资源进行训练。如前所述，高昂的训练成本可能阻碍AI的更广泛应用。优化方法旨在通过改进内存使用等方式提高AI的效率，从而使LLM更加易于获取和实用。

3.1 Flash-Decoding

由斯坦福大学研究人员开发的Flash-Decoding，通过加速注意力机制来解决传统LLM在处理长序列任务时的低效问题。它通过并行加载键和值，并分别重新缩放和组合它们来实现，以保持正确的注意力输出。

在各种测试中，Flash-Decoding的性能超过了其他领先方法，如PyTorch Eager和FlashAttention-2，显示出更快的推理速度：例如，在256的批大小和256序列长度上，Flash-Decoding比PyTorch Eager快48倍，比FlashAttention-2快6倍。

例如，像ChatGPT这样的模型每次回应的推理成本为0.01美元，当向数百万用户部署此类模型时，成本可能变得非常昂贵。像Flash-Decoding这样的创新对于降低AI的推理成本至关重要。（省钱🤑了）

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

如何让大模型更聪明？《2024年人工智能指数报告》- 2.12 LLM改进技术

1. Prompting

1.1 Graph of Thoughts Prompting

1.2 Optimization by PROmpting (OPRO)

2. Fine-Tuning

2.1 QLoRA

3. 注意力机制

3.1 Flash-Decoding

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

如何让大模型更聪明？《2024年人工智能指数报告》- 2.12 LLM改进技术

1. Prompting

1.1 Graph of Thoughts Prompting

1.2 Optimization by PROmpting (OPRO)

2. Fine-Tuning

2.1 QLoRA

3. 注意力机制

3.1 Flash-Decoding

您可能也对以下帖子感兴趣